孟德尔随机化系列之一：基础概念 Mendelian randomization I – GWASLab – GWAS实验室

您所在的位置：网站首页 › 随机定义 › 孟德尔随机化系列之一：基础概念 Mendelian randomization I – GWASLab – GWAS实验室

孟德尔随机化系列之一：基础概念 Mendelian randomization I – GWASLab – GWAS实验室

2024-07-06 06:13| 来源: 网络整理| 查看: 265

本文是MR系列的第一篇，孟德尔随机化的简介，该系列会介绍孟德尔随机化的基础概念，统计方法分类，常见误区与实践操作等内容。

1.背景与目的1.1 明确因果关系1.2 RCT是金标准，但缺点明显1.3 孟德尔随机化的本质2.孟德尔随机化的统计学方法 – 工具变量3.核心假设3.1 关联性假设3.2 排他性限制3.3 独立性假设4.孟德尔随机化的优势

1 背景与目的

1.1目的是明确因果关系

在关联分析中我们时常面对的一个问题便是我们很难确定一个变量是否是真正的因果变量，而非有其他未观测的因素同时影响这个变量与结果，造成这个变量与结果相关联。在循证医学中，或是制定干预策略时，明确因果性是十分必要的。

这个问题实际上与内生性 endogeneity 相关，包括：反向因果关系 reverse causation, 忽略的混淆变量造成的偏倚 omitted variable bias due to confounding, 测量误差measurement error, 以及双向因果关系bidirectional causality等等问题。（这里的内生性在统计学上是指在回归分析中，解释变量（x）与误差项相关。）

1.2. RCT是金标准，但缺点明显

一般来说，明确因果关系的金标准时随机对照试验 RCT randomized control trial (RCT)，即对受试者随机分为对照组和实验组，以研究某个因素的影响。但现实中，要完成随机对照试验的难度非常高，需要大量的人力物力，有时因为伦理问题，对某个因素的研究几乎是不可能的。这时我们就要借助其他方法，而孟德尔随机化就是其中之一。

1.3. 孟德尔随机化与RCT的相似性

孟德尔随机化（MR，Mendelian randomization）便是为了解决以上问题而开发的方法，MR与RCT直接相关，两者有很高的相似性，如下图所示。

孟德尔随机化的核心其实是利用了孟德尔第二定律，也就是自由组合规律(law of independent assortment），当具有两对（或更多对）相对性状的亲本进行杂交，在子一代产生配子时，在等位基因分离的同时，非同源染色体上的基因表现为自由组合，这一过程类似于随机对照试验中的随机分组，所以我个人理解的孟德尔随机化就是基于孟德尔第二定律的随机对照试验。

2 孟德尔随机化的统计学方法 – 工具变量

孟德尔随机化在统计学上的本质实际是利用工具变量（Instrumental variables）来研究因果性，这一方法常用在经济学研究中。

工具变量简单来说就是，一个与X相关，但与被忽略的混淆因素以及Y不相关的变量。在经济学研究中工具变量可以是政策改革，自然灾害等等，而在遗传学中，这个变量就是基因。

如果一个基因变异Z 是某个暴露因素X的因果变量，并且对结果Y没有直接因果关系，那么这个基因变异Z与结果Y的关联，只能通过X对Y的因果关系而被观察到（X->Y）。

2.1 两阶段最小二乘法

通常我们可以用两阶段最小二乘法（2SLS，2 stage least squared method）来估计X对Y的效应：

考虑一种最简单的单样本的情况，有一个基因变异Z，与Z相关的因素X，以及与Z不相关的结果Y，

我们想探究X与Y之间的因果关系。

第一阶段，X对工具变量进行回归，

第二阶段，Y对第一阶段X的预测值进行回归，

合并后可以化为Y直接对工具变量进行回归。

我们所关心的系数β2SLS实际上也等同于两段协方差的比值

2.2 两样本MR

另一种常见的情况则是两样本MR，如果我们有一个与X相关联的工具变量，我们只有在X对Y有因果关系的情况下，才能观测到这个工具变量与Y的关联。

这意味着βiv,y = βiv,x 乘以 βx,y。也就是说，我们可以不用通过X与Y的回归来估计β，

而是可以简单地通过 βx,y = βiv,y / βiv,x 来计算 X对Y的效应量。

这就意味着与两阶段最小二乘法相对，我们可以利用两个独立的GWAS 的概括性统计量来计算这个比值。这种方法通常叫做两样本MR.

当然MR还有其他更复杂的统计模型方法，这里不做深究，有兴趣的朋友的可以看这篇文章：预留链接

核心假设：

当然，既然是统计模型那就要满足模型的基本假设，通常情况下MR建立在几点基本假设之上，

主要假设：

3.1 遗传变异必须与暴露因素X强相关。（关联性假设），例如：弱工具变量的使用会导致估计出现偏倚。

3.2 遗传变异不能与结果直接相关。(排他性限制)，例如：可能影响因素包括多效性等。

3.3 遗传变异不能与任何可能的混淆因素相关 (独立性假设)，例如：人群分层

其他假设：

3.4 不存在选型交配 No genetic assortative mating，例如：人们经常会与自己教育和经济水平相似的人结婚。

3.5 对所有个体，IV对于X的影响方向是相同的。例如：潜在的上位效应与GxE基因与环境的相互作用都可能会影响此假设。

总结来看，孟德尔随机化以基因型作为工具变量的优势是：

4.1 遗传相关中，因果关系的方向是确定的，遗传多样性导致了不同的表型，反之则不成立

4.2 一般情况下我们所测量的环境暴露因素都或多或少与行为，社会，心理等因素相关，造成偏倚。但遗传变异则不受这些混淆因素影响。

4.3 相对来说，遗传变异与其效应的测量误差较小。

4.4 并不一定要找到因果SNP，一个与因果SNP处于LD的SNP即可满足假设条件。

4.5.目前GWAS的数据相对容易获取。

参考：

Melinda C. Mills, Nicola Barban, and F. C. T. An Introduction to Statistical Genetic Data Analysis. (2020).

Curr Epidemiol Rep . 2017;4(4):330-345. doi: 10.1007/s40471-017-0128-6. Epub 2017 Nov 22.

共享此文章：Pocket电子邮件赞正在加载…… 相关

【本文地址】

孟德尔随机化系列之一：基础概念 Mendelian randomization I – GWASLab – GWAS实验室

孟德尔随机化系列之一：基础概念 Mendelian randomization I – GWASLab – GWAS实验室

今日新闻

推荐新闻